
Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成
Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成近年来,基于智能体的强化学习(Agent + RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。
近年来,基于智能体的强化学习(Agent + RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。
随着 AI Agent 技术的快速发展,业界许多企业开始在 Agent 方向进行深层次探索,而不仅仅是停留在“大模型 + 工具调用”的简单应用上。
一个优秀AI产品背后肯定有一个很能打的原始团队。 经过2025前半年的厮杀,我基本有这样的一个判断:目前市面上八成的Agent产品会草草收场或者归于沉寂。 同时Lovart是Liblib母公司全力支持的出海产品,liblib本身也具有社区,设计,技术的基因。
根据 Menlo Ventures 最新发布的《2025 年消费者 AI 现状报告》,全球已有 18 亿用户使用 AI 产品,付费转化率 3% 左右。行业领头羊 ChatGPT ,拥有 8 亿月活用户,付费转化率约 5%。C 端场景基数大且有一定的付费转化率,部分产品商业化渐入佳境。
本文第一作者是上海交通大学计算机学院三年级博士生程彭洲,研究方向为多模态大模型推理、AI Agent、Agent 安全等。通讯作者为张倬胜助理教授和刘功申教授。
自从 Transformer 问世,NLP 领域发生了颠覆性变化。大语言模型极大提升了文本理解与生成能力,成为现代 AI 系统的基础。而今,AI 正不断向前,具备自主决策和复杂交互能力的新一代 AI Agent 也正加速崛起。
Agent Infra是AI时代的新热点,涉及为Agent重建基础设施以适应其与人类的根本差异,包括交互方式、学习模式、责任界定等。核心是创建安全环境如E2B沙盒和Browserbase浏览器工具,支持Agent反馈循环和多任务协作,预计Browser Use市场将大幅增长,开发者需聚焦差异场景提升价值。
这是我关于「AI Native 系列」的第二篇文章,主题是:行动闭环。在上一篇里,我讲了什么样的产品才算得上真正的 AI Native,分享了我对 MCP 协议、AI 架构原生性和任务闭环的理解。
Agent 成为新一轮创新叙事的中心坐标。在技术边界不断推进的同时,一个显著的变化也在悄然发生:AI 创业从「拼技术」进入到「拼交付」时代。
2025年已成为名副其实的Agent元年。 不论是Operator、Manus、Genspark等爆款Agent的相继出现,还是各大厂商陆续发布MCP协议支持,种种迹象都在印证着AI Agent正经历从“玩具”到“工具”的关键转折。